Natural Language Processing I
1. 导论
WU Xiaokun 吴晓堃
xkun.wu [at] gmail
2022/03/11
Dave Bowman: Open the pod bay doors, HAL.
HAL: I’m sorry Dave, I’m afraid I can’t do that.– Kubrick and Clarke 2001, A Space Odyssey.
Dave Bowman: HAL,请你打开太空舱的分离舱门。
HAL: 对不起,Dave,我不能这样做。– Kubrick and Clarke 2001, 《太空漫游》.
侧重语言学结构时,也称计算语言学 Computational Linguistics
现代日常生活高度依赖信息交流
高级语言系统是人类智能的主要特征之一
很多信息时代的技术是由语言载体来支持的
完美地实现语言理解等价于实现人工智能
测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
语言演化的终极目标是高效沟通与语义准确之间的平衡
生而不有(生养万物而不据为己有)
为而不恃(竭尽全力而不自恃已能)
–《道德经》
出生时一无所有???
做起事来有恃无恐???
人类对自己的语音系统太熟悉,就很难体会其复杂程度
介词短语:高阶英语学习的最大难点
One morning I shot an elephant in my pajamas.
How he got into my pajamas I don’t know.– Groucho Marx, Animal Crackers, 1930
方便的时候,给我打电话啊。结婚的和尚未结婚的确实在干扰分词。这种食物可以zhì’ái。-- “致癌”还是“治癌”?The chef made her duck
| 你 | 说 | 他 | 不 | 行 | , | 你 | 行 | 你 | 上 | 啊 |
| You | say | he | no | can | , | you | can | you | up | ah |
| You | say | he | can | not | , | you | can | you | on | ah |
思考:如何正确翻译?
黑话只在特定人群中使用
土匪:天王盖地虎!(你好大的胆!敢来气你的祖宗?)
杨子荣:宝塔镇河妖!(要是那样,叫我从山上摔死,掉河里淹死。)
--《林海雪原》
翻译难度非常高
台词:Our master lords over tigers, Our pagoda seals river monsters.
机翻:The king of heaven covers the tiger, the pagoda to suppress the river demon.
艺术源于生活。
老板:小伙子,好好干!只要这个月部门的业绩能达标,到时候嘛,你懂的~(说罢,还看了总监位置一眼。)
–《万万没想到》
张麻子:翻译出来给我听,什么XXX叫惊喜!什么XXX叫XXX惊喜!
–《让子弹飞》
……文艺作品中反映出来的生活却可以而且应该比普通的实际生活更高,更强烈,更有集中性,更典型,更理想,因此就更带普遍性。
–毛泽东《在延安文艺座谈会上的讲话》,1942年
主体身份误判
Q:第一次去动物园应该注意什么?
A:记得要食物——别只知道卖萌。
暴力、淫秽、种族歧视、极右翼言论
《客服人员标准礼貌用语》
X先生/小姐,非常感谢您为我们提供的宝贵意见,我们将尽快向有关部门反映,希望您继续对X的服务给予关注和支持。
热情,礼貌,但一问三不知。–《人民的名义》
编程语言中称为关键字
自然语言的词汇量可以是无限多
编程语言是结构化的
class MLP(nn.Module):
def __init__(self, name, dim):
super().__init__()
self.name = name
self.dim = dim
mlp = MLP(name="单层感知机", dim=[20, 256, 10])
自然语言处理任务:“模型选用单层感知机,其中隐藏层的维度是256”
编程语言不存在歧义性,否则无法编译执行
自然语言存在大量歧义
请解释下文中每个“意思”的意思。
领导:“你这是什么意思?”
阿呆:“没什么意思,意思意思。”
领导:“你这就不够意思了。”
阿呆:“小意思,小意思。”
领导:“你这人真有意思。”
阿呆:“其实也没有别的意思。”
领导:“那我就不好意思了。”
阿呆:“是我不好意思。”
编程语言中拼写错误导致无法编译或潜在bug
自然语言很难避免拼写、语法错误
妍表究明,汉子的序顺并不定一能影像读阅。比如,当你看完这话句后,会发现这面里的字全是挫乱的。
编程语言有维护标准,更新非常缓慢
自然语言是地区约定俗成的
HanLP:面向生产环境的自然语言处理工具包
TensorFlow:https://www.tensorflow.org/
PyTorch:https://pytorch.org/
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1940 - 1954 | 电子计算机发明,智能理论构建 | Turing, Chomsky |
| 1954 - 1970 | 形式化规则,逻辑理论,感知机 | Prolog, Rosenblatt |
| 1970 - 1980 | HMM语音识别,语义和篇章建模 | Jelinek |
| 1980 - 1991 | 大规模规则知识库 | WordNet (1985) |
| 1991 - 2008 | 统计建模和机器学习 | SVM, PageRank, 问答系统 |
| 2008 - now | 大数据和深度学习 | 词嵌入,翻译,聊天 |
专家系统:基于规则,即由专家手工指定的确定性流程。
案例:波特词干算法 Porter stemming algorithm
| IF | AND | 后缀替换 | 例子 |
|---|---|---|---|
| eed | 辅音+元音同时出现 | ee | agreed -> agree |
| ed | 含辅音 | 空白 | plastered -> plaster |
| ing | 含辅音 | 空白 | eating -> eat |
问题:维护(专家)成本高,难以拓展、更新
降低对专家的依赖,自动适应语言演化
编程范式
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1940 - 1954 | 电子计算机发明,智能理论构建 | Turing, Chomsky |
Turing 1950, Computing Machinery and Intelligence
Chomsky 1957, Syntactic Structures
Minsky 1951:首台模拟神经网络的机器
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1954 - 1970 | 形式化规则,逻辑理论,感知机 | Prolog, Rosenblatt |
MIT AI, BASEBALL
规则系统僵硬严格,被称为“玩具”
Prolog (Programming in Logic) 1972:构建知识库及专家系统
Rosenblatt 1958:感知机
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1970 - 1980 | HMM语音识别,语义和篇章建模 | Jelinek |
Jelinek 1976, Continuous Speech Recognition by Statistical Methods
理想破灭导致第一次人工智能冬天
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1980 - 1991 | 大规模规则知识库 | WordNet (1985) |
专家系统再次兴起,商业化发展迅猛
维护成本过高导致第二次人工智能冬天
LeCun 1989:深度卷积神经网络
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 1991 - 2008 | 统计建模和机器学习 | SVM, PageRank, 问答系统 |
互联网的出现带来统计建模的热潮
领域专家作用减弱
| 时间 | 关键点 | 代表人物、技术 |
|---|---|---|
| 2008 - now | 大数据和深度学习 | 词嵌入,翻译,聊天 |
计算机算力提升带来神经网络的复兴
本课程计划讲解如下应用的实现:
成年人的对话常常带有内涵
嘉靖帝:胡宗宪呢?
杨金水:他不是织造局的人(胡宗宪没贪钱)
嘉靖帝:吕芳呢?
杨金水:他是谁?(装傻,保吕芳;吕芳是你的忠心奴仆,怎么还怀疑他?)
嘉靖帝:就是杨金水他们口里的老祖宗,给你请六品顶戴的人!(吕芳不可能跟沈一石没有利益往来)
杨金水:有他,他在一百年前就死掉了。(那是很久之前的事,跟这次案件无关)。
嘉靖帝:你说了这么多人,为什么不说杨金水?(事已至此,你打算怎么办?)
杨金水:杨金水也死了。他害死了我,我已经把他也带走了。(曾经的杨金水已经死了,现在只有愿意背锅的疯子)
提取内涵的简单版本:情感分析 sentiment analysis
酒店评价
经历创伤后的文字
...we were ignored until we flagged down a waiter to get our waitress...
差评可以看作创伤陈述
人的原始欲望:Drugs, Sex, and Dessert
Jurafsky 2014, Narrative framing of consumer sentiment in online restaurant reviews
Siri, Cortana, Echo
Siri vs. Cortana